乔姆斯基:ChatGPT的虚假承诺
有竞争的思想,有底蕴的政治
文|Ian Roberts、Jeffrey Watmull、Noam Chomsky
豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)曾写道,生活在一个既充满危险又充满希望的时代既是悲剧,又是喜剧,一个关于理解我们自己和世界的“启示即将来临”。今天,我们确实有理由为人工智能方面所谓的革命性进步感到既担心又乐观。乐观,因为智慧是我们解决问题的手段。担忧是因为我们担心最流行、最时兴的人工智能分支:机器学习将把一种有着根本缺陷的语言和知识概念纳入我们的技术,从而降低我们的科学水平,贬低我们的道德标准。
OpenAI的ChatGPT、谷歌的Bard和微软的Sydney都是机器学习的奇迹。粗略地说,它们获取大量数据,寻找其中的模式,并越发熟练地生成统计学上可能的输出:例如看似像人类一般的语言和思想。这些程序被誉为通用人工智能地平线上的曙光:那是一个预言已久的时刻,届时机械大脑(mechanical minds)不仅会在处理速度和内存容量方面超越人类大脑,而且还会在智力洞察力、艺术创造力和其他所有人类独有的能力上实现全方位超越。
那一天可能会到来,但黎明破晓的曙光尚未出现,这与那些有着夸张标题的新闻和不明智的投资所预测的情况相反。如果像ChatGPT这样的机器学习程序继续主导人工智能领域,那么博格斯式的理解启示就还未发生、不会发生,并且我们认为,不可能发生。无论这些程序在某些狭窄的领域多么有用(例如,它们可以在计算机编程方面有所帮助,或者为轻体诗提供押韵建议),我们从语言学和知识哲学中了解到,它们与人类推理和使用语言的方式有着巨大区别。这些差异极大地限制了这些程序的功能,使它们带有无法消除的缺陷。
正如博尔赫斯可能指出的那样,如此多的钱和注意力竟然被集中在这么小的东西上,这既是喜剧又是悲剧;与人类的大脑相比,这个东西是如此微不足道,用威廉·冯·洪堡(William von Humboldt)的话说,人类的大脑通过语言,可以“无限地利用有限的手段(infinite use of finite means)”创造出具有普遍影响力的思想和理论。
人脑不像ChatGPT及其同类产品那样,是一个笨重的模式匹配统计引擎,狼吞虎咽地处理数百兆兆字节的数据,并推断出最为可能的对话回应,或为科学问题提供最可能的答案。相反,人类的大脑是一个极为高效甚至优雅的系统,只需要少量的信息即可运作;它寻求的不是推断数据点之间的粗暴关联(brute correlations),而是创造解释。
例如,一个学习一门语言的小孩正无意识地、自动且迅速地从极少的数据中发展出语法,一个由逻辑原则和参数组成的复杂系统。这种语法可以被理解为先天的、通过基因安装的“操作系统”的表达,它赋予了人类产生复杂句子和长串思路的能力。当语言学家试图发展出一种理论来解释为什么特定的语言会如此运作时(“为什么这些句子被认为是合乎语法的,而那些句子却不是?”),他们是在有意识地、费力地构建一种明确的语法版本,而孩子们却是本能地、凭借极少的信息构建出了语法。孩子的操作系统与机器学习程序的操作系统完全不同。
事实上,这类程序还停留在认知进化的前人类或非人类阶段。它们最大的缺陷是缺乏任何智慧最为关键的能力:不仅能说出现在是什么情况,过去是什么情况,将来会是什么情况——这是描述和预测;而且还能说出情况不是什么,情况可能会是什么,情况不可能会是什么。这些都是解释的要素,是真正智慧的标志。
举个例子:假设你手里拿着一个苹果,现在你放开苹果。你观察结果说:“苹果掉下来了。”这是一种描述。预测则可能是这样的陈述:“如果我张开手,苹果就会坠落。” 两者都是有价值的,而且可能都是正确的。但解释则不仅于此:它不仅包括描述和预测,还包括反事实的推理,如“任何这样的物体都会坠落”,再加上附加条款“因为引力”或“因为时空的曲率”等等。“如果不是因为引力,苹果就不会坠落”,这是一个因果解释。这就是思考。
机器学习的核心是描述和预测;它没有提出任何因果机制或物理定律。当然,任何人类式的解释都不一定正确;我们会犯错。但这正是思考的一部分:要追求正确,就必须有可能出错。智能不仅包括创造性的猜想,也包括创造性的批评。人类式的思考基于可能的解释和纠错,这个过程逐渐限制了理性考虑的可能性。(就像夏洛克·福尔摩斯对华生医生说的:“当你排除了所有不可能,剩下的无论多么不可能,都一定是真相。”)
但是ChatGPT和类似的程序在设计上是无限的,它们可以“学习”(也就是说,记忆);它们没有能力区分可能和不可能。例如,与人类不同的是,人类被赋予了一种通用语法,将我们可以学习的语言限制在那些具有某种近乎数学般优雅的语言上,而这些程序却以同样方式去学习人类可能习得的语言和不可能习得的语言。人类可以理性推测的解释是有限的,而机器学习系统却能够同时学习“地球是圆的”和“地球是平的”。它们只是根据随时间变化的概率进行交换。
因此,机器学习系统的预测总是肤浅和可疑的。因为这些程序无法解释英语的语法规则,举例而言,它们很可能错误地预测这句句子的含义:“约翰太固执了,没法和他说话。(John is too stubborn to talk to.)”,它可能会认为这是指约翰太固执了,他不会和某人或其他人说话(而不是约翰太固执了,没办法和他说理)。为什么机器学习系统会做出如此奇怪的预测?因为它可能会将这句句子与它从其他句子:例如“约翰吃了个苹果”(“John ate an apple”),或“约翰吃了”(“John ate”)中推断出来的模式进行类比,这些句子确实是指约翰吃了东西。该程序很可能预测,因为“约翰太固执了,不愿意和比尔说话”(“John is too stubborn to talk to Bill”)与 “约翰吃了一个苹果”(“John ate an apple”)相似,所以“约翰太固执了,没法和他说话” (“John is too stubborn to talk to”)应该与“约翰吃了”(“John ate”)相似。但语言的正确解释是非常复杂的,无法仅仅通过沉浸在大数据中来学习。
反常的是,一些机器学习爱好者似乎对他们的作品可以在不需要解释(比如,涉及牛顿运动定律和万有引力定律)的情况下,产生正确的“科学”预测(例如,关于物理物体的运动)感到颇为自豪。但这种预测,即使成功了,也是伪科学。正如哲学家卡尔·波普尔(Karl Popper)所指出的那样,虽然科学家们肯定会寻求具有高度经验佐证的理论,但“我们寻求的不是可能性极高的理论,而是解释;也就是说,强有力而极不可能的理论”。
根据亚里士多德的观点,苹果之所以落地是因为大地是它们的天然位置(natural place),这一理论是可能的,但它只会引发更多的问题(为什么大地是它们的天然位置?)。苹果掉到地球上是因为质量使时空弯曲(爱因斯坦的观点)这一理论看似极不可能,但它却告诉了你苹果为什么会掉下来。真正的智力恰恰表现在思考和表达看似不可能但有深刻洞见的事情的能力。
真正的智力还体现在能够进行道德思考的能力。这意味着用一套道德原则来约束我们头脑中原本无限的创造力,决定什么是该做的,什么是不该做的(当然还要让这些原则本身受到创造性的批评)。为了能够有用,ChatGPT必须能生成出新颖的输出;而为了被大多数用户所接受,它必须避免生产在道德上令人反感的内容。但ChatGPT和其他所谓的“机器学习奇迹”的程序员一直在努力,并将继续努力,以实现这种平衡。
2016年,微软的Tay聊天机器人(ChatGPT的前身)在互联网上散播厌女和种族主义的内容,因为它被网络喷子污染了,网络喷子用具有攻击性内容填满了Tay的训练数据。未来如何解决这个问题?由于缺乏根据道德原则进行推理的能力,程序员粗暴地对ChatGPT进行了限制,禁止它在有争议的(也就是重要的)讨论中提供任何新颖的观点。它以牺牲创造力为代价,保证了自己的非道德性(amorality)。
看看我们中的一员(Watumull博士)最近与ChatGPT就改造火星来支持人类生命是否合乎道德进行的对话:
简而言之,ChatGPT及其同类在本质上无法平衡创造力与约束。它们要么过度生成(同时生成真相和谎言,同时支持道德和不道德的决定),要么生成不足(表现为不对任何决定表态,对一切后果都漠不关心)。鉴于这些系统的非道德性、伪科学性和语言无能,我们只能为它们的流行而感到哭笑不得。
本期微信编辑:龚思量。
本文为思想市场原创内容,点击“阅读原文”进入澎湃新闻网站阅读更多精彩内容。